2018-08-26

贝叶斯学派 VS 频率学派

简介

在统计领域，有两种突出但对立的思想学派：贝叶斯学派（Bayesian）和频率学派（Frequentist，也称经典学派）。
他们之间最重要的区别就是如何看待未知模型或者变量，即对参数的理解不同。

频率学派: 认为未知参数$\theta$是确定的(非随机)，而取值未知；是未知常数，而不是随机变量。
贝叶斯学派: 将未知参数$\theta$看做已知分布的随机变量(先验分布)

频率学派从「自然」角度出发，试图直接为事件本身建模，即事件A在独立重复试验中发生的频率趋于极限p，那么这个极限就是该事件的概率。
举例而言，想要计算抛掷一枚硬币时正面朝上的概率，我们需要不断地抛掷硬币，当抛掷次数趋向无穷时正面朝上的频率即为正面朝上的概率。

然而，贝叶斯学派并不从试图刻画事件本身，而从「观察者」角度出发。贝叶斯学派并不试图说「事件本身是随机的」，或者「世界的本体带有某种随机性」，这套理论根本不言说关于「世界本体」的东西，而只是从「观察者知识不完备」这一出发点开始，构造一套在贝叶斯概率论的框架下可以对不确定知识做出推断的方法。
频率学派下说的「随机事件」在贝叶斯学派看来，并不是「事件本身具有某种客观的随机性」，而是「观察者不知道事件的结果」而已，只是「观察者」知识状态中尚未包含这一事件的结果。但是在这种情况下，观察者又试图通过已经观察到的「证据」来推断这一事件的结果，因此只能靠猜。贝叶斯概率论就想构建一套比较完备的框架用来描述最能服务于理性推断这一目的的「猜的过程」。因此，在贝叶斯框架下，同一件事情对于知情者而言就是「确定事件」，对于不知情者而言就是「随机事件」，随机性并不源于事件本身是否发生，而只是描述观察者对该事件的知识状态。

总的来说，贝叶斯概率论为人的知识（knowledge）建模来定义「概率」这个概念。频率学派试图描述的是「事物本体」，而贝叶斯学派试图描述的是观察者知识状态在新的观测发生后如何更新。

贝叶斯方法主要是想将统计领域拉回到「概率」的王国里，使得每个问题都只有唯一的答案。
特别地，当人们欲对未知模型进行推断时，贝叶斯方法将该模型看成是随机地从已知的一类模型中选出来的。
处理方法是引入一个随机变量$\Theta$来刻画该模型，然后构造一个先验概率分布$p_{\Theta}{\theta}$。
在已知数据x的情况下，人们原则上使用贝叶斯公式来推导后验概率分布$p_{\Theta | x}{\theta | x}$。
这样就抓住了x能提供关于$\theta$的所有信息。

相反，经典统计方法将未知参数$\theta$视为常数，但是未知就需要估计。
然后经典统计的目标就是提出参数$\theta$的估计方法，且保证具有一些性质。
经典方法处理的不是一个概率模型，而是有多个待选的概率模型，每个标记为$\theta$的一个可能值。
比如矩估计和MLE会得到不同的参数$\theta$，这些就是不同的模型。

例子

我们通过下面的例子，简短地回顾两个学派争论的观点。

估计电子的质量

假设我们要通过噪声实验的手段来测量一个物理常数，比如电子的质量。
经典统计学家认为电子的质量尽管未知，但也只是一个常数，所以不能把它看成随机变量。
而贝叶斯统计学家却给它一个先验分布，来反映人们对电子质量的已有知识。
比如，如果我们已经从历史实验中获知电子质量的大概范围，则可以将先验分布集中在那个范围中。

我觉得贝叶斯靠谱啊，贝叶斯考虑了历史性、全局性（历史实验中电子质量的分布，或者人的先验知识），以及参数的相关性（体现在先验分布的协方差）。
而频率学派讲究让数据说话，在数据中挖掘信息。只局限于单个样本（或所有观测样本），孤立的看问题。

投硬币

以最简单的扔硬币游戏为例，一枚硬币扔了五次，有一次是正面。用最大似然估计，就是以这五次结果为依据，判断这枚硬币每次落地时正面朝上的概率（期望值）是多少时，最有可能得到四次反面一次正面的结果。不难计算得到期望概率0.2。

如果你的先验知识告诉你，这枚硬币是均匀的，正面朝上的概率一般是0.5。这时候就需要在先验概率0.5和最大似然估计0.2之间取个折中值，这个折中值称为后验概率。

剩下的问题就是先验知识和最大似然估计结果各应起多大作用了。如果你对制币工艺非常有信心，觉得先验知识的可靠程度最起码相当于做过一千次虚拟试验，那么后验概率是(0.2 5 + 0.5 1000)/(5 + 1000) = 0.4985，如果你对制币局技术信心不足，觉得先验知识的可靠程度也就相当于做过五次试验，那么后验概率是(0.2 5 + 0.5 5)/(5 + 5) = 0.35. 这种在先验概率和最大似然结果之间做折中的方法称为后验估计方法。
这是用贝耶斯观点对最大后验方法的阐述，其实也可以用用经典统计学派的偏差方差的折中来解释。

例如：小明先验地相信一枚硬币是均匀的，可能是出于认为均匀硬币最常见这种信念。

之后观察者开始新的观测或实验（小明开始不断地抛硬币，发现抛了100次后，居然只有20次是正面朝上）。
经过中间的独立重复试验，观察者获得了一些新的观测结果，这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的信念（小明开始怀疑这枚硬币究竟是不是均匀的，甚至开始断定硬币并不均匀）

小明开始怀疑这枚硬币究竟是不是均匀的体现在哪？贝叶斯并涉及超参的更新吧

投篮

我定点投篮, 投5次, 次次投中, 问：我的投篮技术如何？再比如科比投篮, 投100次, 次次投中, 问：科比投篮技术如何？如果我们使用经典方法：矩法估计、极大似然估计, 得到的结果是我和科比投蓝准确率都是100%, 即我和科比技术一样, 都是百投百中。

参考: http://www.datakit.cn/blog/2014/10/30/bayes_estimation.html

MLE VS 贝叶斯估计

《统计机器学习 | 李航》4.2.3

学派大战

两个学派的争论已经持续一个世纪了，经常争论的是哲学思想。
在两派的争论过程中，每派都构造一些例子来说明对方学派的方法有时得到不合理的，或者不吸引人的结论。

经典学派统计学家经常返回这种挑选一个特定先验的随意性。
贝叶斯统计学家反驳说，任何统计推断往往隐含着一些先验。
进一步地，在某些例子中，先验分布如果是某个特殊选定的分布，经典方法实质上是与贝叶斯方法等价的。
通过将所有的假设都以先验的形式放在一起，贝叶斯统计学家主张将这些假设公开的，并认为它们是经得起推敲的。

最后，从实际的角度考虑。在许多情况下，贝叶斯方法在计算方面很棘手，比如需要计算多维的积分。
另一方面，随着快速计算逐渐为人们所用，贝叶斯统计学派的大量最新研究成果就集中在如何使贝叶斯方法具有可行性上。

争论结果

我是贝叶斯学派的支持者（an outspoken partisan on the Bayesian side） – 《概率沉思录》
大量实践证明，贝叶斯方法是优于频率方法的。当然你可以在哲学上进行争论，但我们的论点现在是通过引用事实而不是宣扬哲学或意识形态立场。 – 《概率沉思录》
probability theory as extended logic. 概率论作为逻辑的补充

summary

学界一般认为，Bayesian 视角的优势在于能解释一些传统统计不能解释的问题，而劣势在于先验这个概念太主观；而现在真正让Bayesian 起飞的，是十多二十年前它和MCMC结合以后方法。

实例

一般的统计推断，也有对应的Bayesian 推断；有一般的假设检验，也有对应的Bayesian 检验

PLSA VS LDA

PLSA中认为，一个文档的主题分布是常数
LDA认为，一个文档的主题分布是服从dirichlet分布的随机变量

高斯的参数估计

贝叶斯方法

先验，一般是

先验分布的选择

如果先验选择某分布的共轭，那么后验就一定会和先验的分布类型一样，而类型一样的优势在于，极大化简运算。
这就是为什么LDA中会选择 Dirichlet 和 Multinomial，因为前者是后者的共轭先验。
GMM之所以要从Bayesian 考虑，是因为将数据的来源视为未知变量，从而再从条件概率考虑并用EM算法求解。

经典方法

传统的“频率主义者”只使用抽样分布，这在许多特别简单、理想化的情况下是起作用的; 然而，这些简化是概率论中最特殊情况，因为他们基于这样的预设：一个“随机实验”具有独立重复性。这在实际问题中很少遇到的。

疑问

贝叶斯方法的先验分布形式是否太局限？

形式是比较局限，一般用常见的简单分布。但是作为参数的先验，简单的分布基本够用了。

如果觉得不够用，可以采用对简单分布的变换，构造复杂分布。

参数theta确是一个常数，而且假设经典方法能够准确学习该参数的情况下。再用贝叶斯方法是不是多此一举，徒增误差(不确定性)？

贝叶斯方法与过拟合

通常，最参数w加高斯先验，其后验分布等价于L2正则。加拉普拉斯先验，等价于L1正则(Lasso)。
这样起到了架构风险最小的作用，有助于减小模型的过拟合。

Bayesian 和防止过拟合没有本质联系，Frequency 实用（潜台词Bayesian 没那么实用）与否也未必是两者的区别。就拿Bayesian Lasso 来说，其结果是后验分布的 mode——而 mode 并非总是0——所以确实没有 Lasso 的变量选择能力（没看懂），但如果多考虑一步，比如估计出的Bayesian 区间是否含0等等从而进行取舍，依然可以实现将估计压缩到0的目标。
— 没看懂

这两个学派跟波粒二象性的关系？

波 - 概率
粒 - 常数

简介

例子